Hunting for Big Fish¶

Identifikation von möglichen Steuerbetrügern anhand eines Airbnb Datensatzes.¶

Alexander Gayko, Ramin Nobakht, Lennart Küppers¶

Szenario¶

  • Finanzamt will Steuerhinterziehung minimieren
  • nur wenig Mitarbeiter und Zeit
  • daher Priorisierung von potentiellen Steuerhinterziehern

Vorgehen¶

  1. Data Exploration
  2. Bereinigen der Airbnb Daten
  3. Gruppierung von vermutlich zusammengehörigen Listings und Hosts
  4. Ermittlung minimale Einnahmen
  5. Visualisierung Big Fishes
  6. Statistische Analyse (ANOVA)

Data Clean¶

“It is a capital mistake to theorize before one has data.” - Sherlock Holmes¶

Mängel in den Daten¶

  • Sinnlose Werte (minimum_nights < 0)
  • Widersprüche (construction_year > last_review)
  • Datentyp Features (price 10$ -> price 10.0)
  • Verarbeitung leerer Felder (reviews = NaN)

Identifying the Big Fishes¶

Wo werden die meisten Einnahmen generiert?¶

Generierung Big Fish Value¶

$$\text{bigfishvalue} = ( \text{price} \times \text{minimum nights} \times \text{number of reviews} ) + ( \text{service fee} \times \text{number of reviews} )$$

New York's Big Fishes¶

Name Totals
0 Michael 30652696.0
506 Chris 20593985.0
746 John 19754656.0
1107 David 18750391.0
1502 Daniel 17039742.0
1742 Eric 15450261.0
1916 Andrew 14728670.0

Most Big Fishes in Lower & Western Manhattan, Brooklyn¶